歡迎來到第 26 天,今天要分享一個 Hadoop 中很重要的一個概念 - MapReduce。
接下來的分散式運算篇章中主要會是以學習筆記的形式呈現,如果是以Hadoop 來說主要會是以它的三大元素作為目標。
說到Hadoop,大家下意識的會想到赫赫有名的Spark,但Spark 是到後期對於MapReduce 的替代方案,等等什麼那什麼是 MapReduce?這就要說到Hadoop 最原生的三個模組
在目前學習到的資料中,MapReduce 是最重要的邏輯運算中心,所有的運算邏輯都會發生在這個模組當中。
運算就要有資料,資料就要有儲存的空間與方式,HDFS(Hadoop Distributed File System) 就是一個分散式檔案管理系統,當然在現在龐大的生態系中也有其他的結局方案,但他是最一開始的結局方案。
當分散式運算的架構越來越大時,就需要一個管理系統,而在 Hadoop 中的 YARN(Yet Another Resource Negotiator) 就是一個資源的管理系統,讓每個節點的效能可以最大化。
以上三個模組就是Hadoop 生態系裡面重要的元素,也會是最後幾天的學校目標,那麼今天就先到這裡!我們明天 MapReduce 見!